Para millenials di US sangat menyukai avocado toast1. Dikarenakan sangat suka dengan avocado, mereka rela membeli avocado dengan harga yang sangat beragam demi memenuhi kebutuhan mereka dan bahkan belum bisa membeli rumah sendiri.
Jika kita berperan sebagai konsumen yang ingin membeli avocado, dimana kita harus membeli avocado dengan harga ekonomis dan kualitas baik?
Deskripsi data:
X : index dataDate : tanggal observasiAveragePrice : rata-rata harga satuan avocadoTotal.Volume : jumlah seluruh avocado yang terjualX4046 : banyaknya avocado dengan jenis PLU 4046 terjualX4225 : banyaknya avocado dengan jenis PLU 4225 terjualX4770 : banyaknya avocado dengan jenis PLU 4770 terjualTotal.Bags : banyaknya avocado yang terjual pada tas ukuran kecil, besar, dan ekstra besarSmall.Bags : banyaknya avocado yang terjual pada tas ukuran kecilLarge.Bags : banyaknya avocado yang terjual pada tas ukuran besarXLarge.Bags : banyaknya avocado yang terjual pada tas ukuran ekstra besartype : jenis avocado, konvensional atau organikyear : tahunregion : kota tempat observasiFungsi dari ekplorasi data analisis ini adalah untuk lebih mengenal dan mengetahui data yang kita miliki seperti apa. Ekplorasi data ini juga dapat membantu untuk menemukan insight pada suatu data.
Pertama, kita akan coba cek pada data avo terdapat missing value atau tidak. Ternyata data avo tidak memiliki missing value sama sekali.
#> X Date AveragePrice Total.Volume X4046 X4225
#> 0 0 0 0 0 0
#> X4770 Total.Bags Small.Bags Large.Bags XLarge.Bags type
#> 0 0 0 0 0 0
#> year region
#> 0 0
#> Observations: 18,249
#> Variables: 14
#> $ X <int> 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, ...
#> $ Date <fct> 2015-12-27, 2015-12-20, 2015-12-13, 2015-12-06, 2015-1...
#> $ AveragePrice <dbl> 1.33, 1.35, 0.93, 1.08, 1.28, 1.26, 0.99, 0.98, 1.02, ...
#> $ Total.Volume <dbl> 64236.62, 54876.98, 118220.22, 78992.15, 51039.60, 559...
#> $ X4046 <dbl> 1036.74, 674.28, 794.70, 1132.00, 941.48, 1184.27, 136...
#> $ X4225 <dbl> 54454.85, 44638.81, 109149.67, 71976.41, 43838.39, 480...
#> $ X4770 <dbl> 48.16, 58.33, 130.50, 72.58, 75.78, 43.61, 93.26, 80.0...
#> $ Total.Bags <dbl> 8696.87, 9505.56, 8145.35, 5811.16, 6183.95, 6683.91, ...
#> $ Small.Bags <dbl> 8603.62, 9408.07, 8042.21, 5677.40, 5986.26, 6556.47, ...
#> $ Large.Bags <dbl> 93.25, 97.49, 103.14, 133.76, 197.69, 127.44, 122.05, ...
#> $ XLarge.Bags <dbl> 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, ...
#> $ type <fct> conventional, conventional, conventional, conventional...
#> $ year <int> 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, 2015, ...
#> $ region <fct> Albany, Albany, Albany, Albany, Albany, Albany, Albany...
Tahap selanjutnya kita ingin coba bersihkan datanya dengan beberapa step tahapan yaitu sebagai berikut :
Permasalahan utama yang kita miliki adalah harga. Harga selalu terlihat penting saat kita menyukai suatu barang dan ingin membelinya terus menerus. Tentunya sebagai konsumen, kita ingin mendapatkan kualitas barang yang baik namun dengan harga yang ekonomis juga. Oleh karena itu, mari kita perhatikan distribusi dari harga avocado.
avo %>%
ggplot(aes(x = averageprice, )) +
geom_density(alpha = 0.5, fill = "#8EC9BB") +
ggtitle("Distribusi Harga Avocado") +
labs(caption = "Source : Kaggle", x = "", y = "")+
scale_x_continuous(labels = unit_format(prefix = "$", scale = 1, unit = "")) +
theme_stata()Jika kita perhatikan dari diagram distribusi harga tersebut, kita melihat variasi harga pada avocado yang dijual. Avocado dengan kisaran harga $1 - $1.7 sangat mudah ditemukan. Namun dengan harga demikian, tipe avocado seperti apakah yang kita peroleh?
avo %>%
ggplot(aes(y = averageprice, x = type)) +
geom_boxplot(aes(fill = type), show.legend = F) +
scale_fill_manual(values = c("#FB8E7E", "#C5D7C0")) +
scale_y_continuous(labels = unit_format(prefix = "$", scale = 1, unit = "")) +
ggtitle("Distribusi Harga Avocado", subtitle = "berdasarkan tipe") +
labs(caption = "Source : Kaggle", y = "", x = "") +
theme_stata() +
theme(axis.text.y = element_text(hjust = 0.5))Menarik sekali, dengan kisaran harga $1 - $1.7 kita bahkan sudah bisa mendapatkan avocado organik.
Pertanyaan selanjutnya adalah, dimana kita bisa membeli avocado dengan kisaran harga tersebut dan dengan kualitas yang baik dalam hal ini kita ingin mendapatkan avocado organik.
agg_or <- avo %>%
filter(averageprice >= 1 & averageprice <=1.7 & type == "organic") %>%
group_by(region) %>%
summarise(meanprice = mean(averageprice)) %>%
ungroup() %>%
arrange(meanprice) %>%
head(10)
top10_region_or <- agg_or %>%
pull(region)
or_agg <- avo %>%
filter(averageprice >= 1 & averageprice <=1.7 & type == "organic") %>%
filter(region %in% top10_region_or) %>%
group_by(year, region) %>%
summarise(meanprice = mean(averageprice)) %>%
arrange(meanprice) %>%
ungroup()p <- or_agg %>%
ggplot(aes(x = reorder(region, desc(meanprice)), y = meanprice,
ymin = meanprice-sd(meanprice),
ymax = meanprice+sd(meanprice))) +
geom_pointrange(aes(color = as.factor(year)), size = 0.3)+
coord_flip() +
scale_color_manual(values = colorsPuYe, guide_legend(title = "Tahun")) +
ggtitle("Top 10 Rata-rata Harga Avocado Organik Terendah",
subtitle = "Tahun 2015 - 2018") +
labs(y = "", x = "", caption = "Source : Kaggle") +
theme_stata() +
theme(legend.position = "bottom",
axis.text.y = element_text(angle = 0))
pTernyata harga avocado organik terendah dapat kita peroleh di Houston, bahkan pada tahun 2018 pun di Houston harga avocado organiknya termasuk rendah yaitu seharga $1.36. Pilihan lainnya adalah kita bisa membelinya di Raleigh Detroit dengan rata-rata harga $1.31.
Namun, bagaimana jika kita ingin membeli avocado konvensional? Dimana kah kita harus membeli dengan harga yang rendah?
agg_kon <- avo %>%
filter(averageprice >= 1 & averageprice <=1.7 & type == "conventional") %>%
group_by(region) %>%
summarise(meanprice = mean(averageprice)) %>%
ungroup() %>%
arrange(meanprice) %>%
head(10)
top10_region_kon <- agg_kon %>%
pull(region)
kon_agg <- avo %>%
filter(averageprice >= 1 & averageprice <=1.7 & type == "conventional") %>%
filter(region %in% top10_region_kon) %>%
group_by(year, region) %>%
summarise(meanprice = mean(averageprice)) %>%
arrange(meanprice) %>%
ungroup()p2 <- kon_agg %>%
ggplot(aes(x = reorder(region, desc(meanprice)), y = meanprice,
ymin = meanprice-sd(meanprice),
ymax = meanprice+sd(meanprice))) +
geom_pointrange(aes(color = as.factor(year)), size = 0.3)+
coord_flip() +
scale_color_manual(values = colorsPuYe, guide_legend(title = "Tahun")) +
ggtitle("Top 10 Rata-rata Harga Avocado Konvensional Terendah",
subtitle = "Tahun 2015 - 2018") +
labs(y = "", x = "", caption = "Source : Kaggle") +
theme_stata() +
theme(legend.position = "bottom",
axis.text.y = element_text(angle = 0))
p2Kita dapat membelinya di West Text New Mexico. Menarik jika dilihat bahwa harga avocado konvensional terendah pada tahun 2018 terdapat pada Columbus dengan rata-rata harganya $1.03.
Hal yang dapat kita simpulkan adalah ketika kita berlaku sebagai konsumen dan kita ingin mendapatkan avocado dengan harga yang rendah, kita memiliki dua pilihan, yaitu organik atau konvensional. Tentunya apabila kita memperhatikan kualitas, kita akan memilih avocado organik dan kita dapat membelinya di Charlotte. Namun jika kita lebih suka jenis avocado konvensional, kita dapat membeli avocado dengan harga yang rendah di San Francisco.
Ekplorasi data sangatlah penting disini. Melakukan ekplorasi data kita dapat mendapatkan insignt dan informasi dimana kita akan membeli avocado dengan harga yang ekonomis namun dengan kualitas yang baik pula.